连续空间中有效有效的探索是将加固学习(RL)应用于自主驾驶的核心问题。从专家演示或为特定任务设计的技能可以使探索受益,但是它们通常是昂贵的,不平衡/次优的,或者未能转移到各种任务中。但是,人类驾驶员可以通过在整个技能空间中进行高效和结构性探索而不是具有特定于任务的技能的有限空间来适应各种驾驶任务。受上述事实的启发,我们提出了一种RL算法,以探索所有可行的运动技能,而不是一组有限的特定于任务和以对象为中心的技能。没有演示,我们的方法仍然可以在各种任务中表现出色。首先,我们以纯粹的运动角度构建了一个任务不合时宜的和以自我为中心的(TAEC)运动技能库,该运动技能库是足够多样化的,可以在不同的复杂任务中重复使用。然后,将运动技能编码为低维的潜在技能空间,其中RL可以有效地进行探索。在各种具有挑战性的驾驶场景中的验证表明,我们提出的方法TAEC-RL在学习效率和任务绩效方面的表现显着优于其同行。
translated by 谷歌翻译
眼底图像的视盘(OD)和视杯(OC)的分割是青光眼诊断的重要基本任务。在临床实践中,通常有必要从多位专家那里收集意见,以获得最终的OD/OC注释。这种临床常规有助于减轻单个偏见。但是,当数据乘以注释时,标准深度学习模型将不适用。在本文中,我们提出了一个新型的神经网络框架,以从多评价者注释中学习OD/OC分割。分割结果通过迭代优化多评价专家的估计和校准OD/OC分割来自校准。这样,提出的方法可以实现这两个任务的相互改进,并最终获得精制的分割结果。具体而言,我们提出分化模型(DIVM)和收敛模型(CONM)分别处理这两个任务。 CONM基于DIVM提供的多评价专家图的原始图像。 DIVM从CONM提供的分割掩码中生成多评价者专家图。实验结果表明,通过经常运行CONM和DIVM,可以对结果进行自校准,从而超过一系列最新的(SOTA)多评价者分割方法。
translated by 谷歌翻译
The intersection of causal inference and machine learning for decision-making is rapidly expanding, but the default decision criterion remains an \textit{average} of individual causal outcomes across a population. In practice, various operational restrictions ensure that a decision-maker's utility is not realized as an \textit{average} but rather as an \textit{output} of a downstream decision-making problem (such as matching, assignment, network flow, minimizing predictive risk). In this work, we develop a new framework for off-policy evaluation with \textit{policy-dependent} linear optimization responses: causal outcomes introduce stochasticity in objective function coefficients. Under this framework, a decision-maker's utility depends on the policy-dependent optimization, which introduces a fundamental challenge of \textit{optimization} bias even for the case of policy evaluation. We construct unbiased estimators for the policy-dependent estimand by a perturbation method, and discuss asymptotic variance properties for a set of adjusted plug-in estimators. Lastly, attaining unbiased policy evaluation allows for policy optimization: we provide a general algorithm for optimizing causal interventions. We corroborate our theoretical results with numerical simulations.
translated by 谷歌翻译
随着深度学习技术的发展,从底眼图像中提出了越来越多的方法对视盘和杯子(OD/OC)进行分割。在临床上,多位临床专家通常会注释OD/OC细分以减轻个人偏见。但是,很难在多个标签上训练自动化的深度学习模型。解决该问题的一种普遍做法是多数投票,例如,采用多个标签的平均值。但是,这种策略忽略了医学专家的不同专家。通过观察到的观察,即在临床上通常将OD/OC分割用于青光眼诊断,在本文中,我们提出了一种新的策略,以通过青光眼诊断性能融合多评分者OD/OC分割标签。具体而言,我们通过细心的青光眼诊断网络评估每个评估者的专业性。对于每个评估者,其对诊断的贡献将被反映为专家图。为了确保对不同青光眼诊断模型的专家图是一般性的,我们进一步提出了专家生成器(EXPG),以消除优化过程中的高频组件。基于获得的专家图,多评价者标签可以融合为单个地面真相,我们将其称为诊断第一基地真相(diagfirstgt)。实验结果表明,通过将diagfirstgt用作地面真相,OD/OC分割网络将预测具有优质诊断性能的面膜。
translated by 谷歌翻译
Object detection, one of the three main tasks of computer vision, has been used in various applications. The main process is to use deep neural networks to extract the features of an image and then use the features to identify the class and location of an object. Therefore, the main direction to improve the accuracy of object detection tasks is to improve the neural network to extract features better. In this paper, I propose a convolutional module with a transformer[1], which aims to improve the recognition accuracy of the model by fusing the detailed features extracted by CNN[2] with the global features extracted by a transformer and significantly reduce the computational effort of the transformer module by deflating the feature mAP. The main execution steps are convolutional downsampling to reduce the feature map size, then self-attention calculation and upsampling, and finally concatenation with the initial input. In the experimental part, after splicing the block to the end of YOLOv5n[3] and training 300 epochs on the coco dataset, the mAP improved by 1.7% compared with the previous YOLOv5n, and the mAP curve did not show any saturation phenomenon, so there is still potential for improvement. After 100 rounds of training on the Pascal VOC dataset, the accuracy of the results reached 81%, which is 4.6 better than the faster RCNN[4] using resnet101[5] as the backbone, but the number of parameters is less than one-twentieth of it.
translated by 谷歌翻译
没有人类在真空中开车。她/他必须与其他道路使用者进行谈判,以在社交交通场景中实现目标。理性的人类驾驶员可以通过隐式通信以社交兼容的方式与其他道路使用者进行互动,以便在互动密集型,关键的安全环境中平稳地完成其驾驶任务。本文旨在审查现有的方法和理论,以帮助理解和重新考虑人类驱动因素与社会自主驾驶之间的互动。我们进行此调查以寻求一系列基本问题的答案:1)道路交通场景中的社交互动是什么? 2)如何衡量和评估社会互动? 3)如何建模和揭示社会互动的过程? 4)人类驾驶员如何达成隐性协议并在社交互动方面平稳地谈判?本文回顾了建模和学习人类驱动因素之间的社会互动的各种方法,从优化理论和图形模型到社会力量理论以及行为和认知科学。我们还重点介绍了一些新的方向,关键挑战和未来研究的开头问题。
translated by 谷歌翻译
联合学习通常被认为是一种有益的技术,它允许多个代理人相互协作,提高模型的准确性,并解决这些问题,这些问题否则这些问题是数据密集型 /昂贵而无法单独解决的。但是,在预期其他代理商将共享其数据的情况下,理性的代理人可能会很想从事有害行为,例如自由骑行的行为,他们在哪里贡献了数据,但仍然享有改进的模型。在这项工作中,我们提出了一个框架来分析此类合理数据生成器的行为。我们首先展示了幼稚的方案如何导致灾难性的自由骑行水平,其中数据共享的好处被完全侵蚀。然后,使用合同理论的想法,我们介绍基于准确性的机制,以最大程度地提高每个代理生成的数据量。这些可以防止自由骑行而无需任何付款机制。
translated by 谷歌翻译
电动汽车的蓬勃发展需要有效的电池拆卸,以使回收环境友好。目前,由于非结构化的环境和高度不确定性,电池拆卸仍然主要由人类(可能是由机器人的帮助)完成的。设计自动解决方案以提高工作效率并降低人类在高压和有毒环境中的风险是非常理想的。本文提出了一种新型的神经肯定方法,该方法增强了传统的变异自动编码器(VAE)模型,以根据原始感觉输入及其关系来学习符号运算符。符号操作员包括一个概率状态符号接地模型和一个状态过渡矩阵,用于预测每个执行后的状态,以实现自主任务和运动计划。最后,通过测试结果验证了该方法的可行性。
translated by 谷歌翻译
有关项目的部分信息的拍卖广泛用于现实世界应用中,但是基本机制的理论支持有限。在这项工作中,我们研究了这些类型的机制的机器学习公式,从买家的角度提出了算法,这些算法是没有重新格雷的。具体来说,希望最大化其公用事业的买家与一系列$ t $圆的平台反复互动。在每个回合中,都从未知分布中汲取新项目,并且该平台以不完整的“掩盖”信息发布了价格。然后,买家决定是否购买该商品。我们将这个问题正式化为在线学习任务,其目标是对近视甲骨文的遗憾,该甲骨文对物品的分布和卖方的掩盖功能具有完美的了解。当买家知道项目的分布和蒙版是一个simhash函数映射$ \ mathbb {r}^d $ to $ \ {0,1 \}^{\ ell} $时,我们的算法很遗憾$ \ tilde o(((td \ ell)^{1/2})$。在完全不可知的设置中,当掩码是任意函数映射到一组$ n $并且价格随机映射时,我们的算法很遗憾$ \ tilde o((TN)^{1/2})$。
translated by 谷歌翻译
在迅速增长的海上风电场市场中出现了增加风力涡轮机尺寸和距离的全球趋势。在英国,海上风电业于2019年生产了英国最多的电力,前一年增加了19.6%。目前,英国将进一步增加产量,旨在增加安装的涡轮机容量74.7%,如最近的冠村租赁轮次反映。通过如此巨大的增长,该部门现在正在寻求机器人和人工智能(RAI),以解决生命周期服务障碍,以支持可持续和有利可图的海上风能生产。如今,RAI应用主要用于支持运营和维护的短期目标。然而,前进,RAI在海上风基础设施的全部生命周期中有可能发挥关键作用,从测量,规划,设计,物流,运营支持,培训和退役。本文介绍了离岸可再生能源部门的RAI的第一个系统评论之一。在当前和未来的要求方面,在行业和学术界的离岸能源需求分析了rai的最先进的。我们的评论还包括对支持RAI的投资,监管和技能开发的详细评估。通过专利和学术出版数据库进行详细分析确定的关键趋势,提供了对安全合规性和可靠性的自主平台认证等障碍的见解,这是自主车队中可扩展性的数字架构,适应性居民运营和优化的适应性规划人机互动对人与自治助理的信赖伙伴关系。
translated by 谷歌翻译